Code generation models have achieved impressive performance. However, they tend to be brittle as slight edits to a prompt could lead to very different generations; these robustness properties, critical for user experience when deployed in real-life applications, are not well understood. Most existing works on robustness in text or code tasks have focused on classification, while robustness in generation tasks is an uncharted area and to date there is no comprehensive benchmark for robustness in code generation. In this paper, we propose ReCode, a comprehensive robustness evaluation benchmark for code generation models. We customize over 30 transformations specifically for code on docstrings, function and variable names, code syntax, and code format. They are carefully designed to be natural in real-life coding practice, preserve the original semantic meaning, and thus provide multifaceted assessments of a model's robustness performance. With human annotators, we verified that over 90% of the perturbed prompts do not alter the semantic meaning of the original prompt. In addition, we define robustness metrics for code generation models considering the worst-case behavior under each type of perturbation, taking advantage of the fact that executing the generated code can serve as objective evaluation. We demonstrate ReCode on SOTA models using HumanEval, MBPP, as well as function completion tasks derived from them. Interesting observations include: better robustness for CodeGen over InCoder and GPT-J; models are most sensitive to syntax perturbations; more challenging robustness evaluation on MBPP over HumanEval.
translated by 谷歌翻译
外部奖励的稀疏性对加强学习(RL)构成了严重的挑战。当前,对好奇心已经做出了许多努力,这些努力可以为有效探索提供代表性的内在奖励。但是,挑战尚未得到解决。在本文中,我们提出了一种名为Dymecu的RL的好奇心,它代表了基于动态记忆的好奇心。受到人类好奇心和信息理论的启发,Dymecu由动态记忆和双重在线学习者组成。好奇心引起的话,如果记忆的信息无法处理当前状态,并且双重学习者之间的信息差距可以作为对代理的内在奖励进行表述,然后可以将这些状态信息巩固到动态内存中。与以前的好奇方法相比,dymecu可以更好地模仿人类的好奇心与动态记忆,并且可以根据双重学习者的引导范式动态地生长内存模块。在包括DeepMind Control Suite和Atari Suite在内的多个基准测试中,进行了大规模的经验实验,结果表明,Dymecu在有或没有外部奖励的情况下优于基于好奇心的方法。我们将发布代码以增强可重复性。
translated by 谷歌翻译
人类对象相互作用(HOI)检测是高级图像理解的核心任务。最近,由于其出色的性能和有效的结构,检测变压器(DETR)基于HOI的检测器已变得流行。但是,这些方法通常对所有测试图像采用固定的HOI查询,这很容易受到一个特定图像中对象的位置变化的影响。因此,在本文中,我们建议通过挖掘硬阳性查询来增强DETR的鲁棒性,这些查询被迫使用部分视觉提示做出正确的预测。首先,我们根据每个训练图像标记的人类对象对的地面真相(GT)位置明确地组成硬阳性查询。具体而言,我们将每个标记的人类对象对的GT边界框移动,以使移位框仅覆盖GT的一定部分。我们将每个标记的人类对象对的移位框的坐标编码为HOI查询。其次,我们通过在解码器层的交叉注意地图中掩盖了最高分数,从而隐式构建了另一组硬阳性查询。然后,掩盖的注意图仅涵盖HOI预测的部分重要提示。最后,提出了一种替代策略,该策略有效地结合了两种类型的硬性查询。在每次迭代中,都采用了Detr的可学习查询和一种选择的硬阳性查询进行损失计算。实验结果表明,我们提出的方法可以广泛应用于现有的基于DITR的HOI探测器。此外,我们始终在三个基准上实现最先进的性能:HICO-DET,V-COCO和HOI-A。代码可在https://github.com/muchhair/hqm上找到。
translated by 谷歌翻译
Federated学习(FL)最近已成为流行的隐私合作学习范式。但是,它遭受了客户之间非独立和相同分布的(非IID)数据的困扰。在本文中,我们提出了一个新颖的框架,称为合成数据辅助联合学习(SDA-FL),以通过共享合成数据来解决这一非IID挑战。具体而言,每个客户端都预测了本地生成对抗网络(GAN)以生成差异化私有合成数据,这些数据被上传到参数服务器(PS)以构建全局共享的合成数据集。为了为合成数据集生成自信的伪标签,我们还提出了PS执行的迭代伪标记机制。本地私人数据集和合成数据集与自信的伪标签的结合可导致客户之间的数据分布几乎相同,从而提高了本地模型之间的一致性并使全球聚合受益。广泛的实验证明,在监督和半监督的设置下,所提出的框架在几个基准数据集中的大幅度优于基线方法。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
建议制度,依靠历史观察数据来模仿用户和物品之间的复杂关系,取得了巨大的成功,在现实世界中取得了巨大的成功。选择偏见是现有的现有观测数据基于方法的最重要问题之一,其实际上是由多种类型的不观察室的暴露策略引起的(例如促销和假期效应)。虽然已经提出了各种方法来解决这个问题,但它们主要依赖于隐含的脱叠技术,但没有明确建立未观察的曝光策略。通过明确重建曝光策略(简称休息),我们将推荐问题正式化为反事实推理,并提出了脱叠的社会推荐方法。在休息时,我们假设项目的曝光由潜在曝光策略,用户和项目控制。基于上述生成过程,首先通过识别分析提供我们方法的理论保证。其次,在社交网络和项目的帮助下,我们采用了变分自动编码器来重建潜在的曝光策略。第三,我们通过利用回收的曝光策略制定基于反事实推理的建议算法。四个现实世界数据集的实验,包括三个已发布的数据集和一个私人微信官方帐户数据集,展示了几种最先进的方法的显着改进。
translated by 谷歌翻译
图表可以模拟实体之间的复杂交互,它在许多重要的应用程序中自然出现。这些应用程序通常可以投入到标准图形学习任务中,其中关键步骤是学习低维图表示。图形神经网络(GNN)目前是嵌入方法中最受欢迎的模型。然而,邻域聚合范例中的标准GNN患有区分\ EMPH {高阶}图形结构的有限辨别力,而不是\ EMPH {低位}结构。为了捕获高阶结构,研究人员求助于主题和开发的基于主题的GNN。然而,现有的基于主基的GNN仍然仍然遭受较少的辨别力的高阶结构。为了克服上述局限性,我们提出了一个新颖的框架,以更好地捕获高阶结构的新框架,铰接于我们所提出的主题冗余最小化操作员和注射主题组合的新颖框架。首先,MGNN生成一组节点表示W.R.T.每个主题。下一阶段是我们在图案中提出的冗余最小化,该主题在彼此相互比较并蒸馏出每个主题的特征。最后,MGNN通过组合来自不同图案的多个表示来执行节点表示的更新。特别地,为了增强鉴别的功率,MGNN利用重新注射功能来组合表示的函数w.r.t.不同的主题。我们进一步表明,我们的拟议体系结构增加了GNN的表现力,具有理论分析。我们展示了MGNN在节点分类和图形分类任务上的七个公共基准上表现出最先进的方法。
translated by 谷歌翻译
在本文中,我们通过深神经网络倾斜地研究了(2 + 1)-dimensional KP-I等式和旋转非线性SCHR \“odinger(Spin-NLS)方程的数据驱动Rational孤子的前向问题。此外,通过深度学习研究了(2 + 1)-Dimensional KP-I等式和Spin-NLS方程的逆问题。数据驱动前向前逆问题的主要思想是使用深神经网络激活函数通过优化与所考虑的非线性波动方程相关的所选损耗函数来近似考虑(2 + 1) - 二维非线性波方程的解。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译